数据增强是使用深度学习来提高对象识别的识别精度的重要技术。从多个数据集中产生混合数据(例如混音)的方法可以获取未包含在培训数据中的新多样性,从而有助于改善准确性。但是,由于在整个训练过程中选择了选择用于混合的数据,因此在某些情况下未选择适当的类或数据。在这项研究中,我们提出了一种数据增强方法,该方法根据班级概率来计算类之间的距离,并可以从合适的类中选择数据以在培训过程中混合。根据每个班级的训练趋势,对混合数据进行动态调整,以促进培​​训。所提出的方法与常规方法结合使用,以生成混合数据。评估实验表明,提出的方法改善了对一般和长尾图像识别数据集的识别性能。
translated by 谷歌翻译
机器人进行深入增强学习(RL)的导航,在复杂的环境下实现了更高的性能,并且表现良好。同时,对深度RL模型的决策的解释成为更多自主机器人安全性和可靠性的关键问题。在本文中,我们提出了一种基于深入RL模型的注意力分支的视觉解释方法。我们将注意力分支与预先训练的深度RL模型联系起来,并通过以监督的学习方式使用受过训练的深度RL模型作为正确标签来训练注意力分支。由于注意力分支经过训练以输出与深RL模型相同的结果,因此获得的注意图与具有更高可解释性的代理作用相对应。机器人导航任务的实验结果表明,所提出的方法可以生成可解释的注意图以进行视觉解释。
translated by 谷歌翻译
在本文中,我们通过使用实例分割来生成更尖锐的注意图以进行动作识别,提出了注意分支网络(ABN)的扩展。视觉解释的方法(例如Grad-CAM)通常会产生模糊的地图,这些图对人类的理解不是直观的,尤其是在识别视频中人们的行为时。我们提出的方法ABN通过引入新的面膜丢失来解决此问题,该掩模损失使生成的注意图接近实例分割结果。此外,引入了PC丢失和多个注意图,以增强地图的清晰度并提高分类的性能。UCF101和SSV2的实验结果表明,通过所提出的方法生成的地图在定性和定量上比原始ABN的图更清晰。
translated by 谷歌翻译
The task of out-of-distribution (OOD) detection is vital to realize safe and reliable operation for real-world applications. After the failure of likelihood-based detection in high dimensions had been shown, approaches based on the \emph{typical set} have been attracting attention; however, they still have not achieved satisfactory performance. Beginning by presenting the failure case of the typicality-based approach, we propose a new reconstruction error-based approach that employs normalizing flow (NF). We further introduce a typicality-based penalty, and by incorporating it into the reconstruction error in NF, we propose a new OOD detection method, penalized reconstruction error (PRE). Because the PRE detects test inputs that lie off the in-distribution manifold, it effectively detects adversarial examples as well as OOD examples. We show the effectiveness of our method through the evaluation using natural image datasets, CIFAR-10, TinyImageNet, and ILSVRC2012.
translated by 谷歌翻译
通常很难从网上交换的文本中正确推断作家的情绪,而作家和读者之间的认可差异可能会出现问题。在本文中,我们提出了一个新的框架,用于检测句子,以在作者和读者之间在情感识别上产生差异,并检测引起这种差异的表达方式。所提出的框架由基于变压器(BERT)的检测器的双向编码器表示,该表示器检测句子,导致情绪识别差异,并分析获得在此类句子中特征性出现的表达式。该探测器基于由作者和社交网络服务(SNS)文档的三个读者注释的日本SNS文档数据集,并以AUC = 0.772检测到“隐藏的天角句子”;这些句子引起了人们对愤怒的认识的差异。由于SNS文档包含许多句子,这些句子的含义很难通过分析该检测器检测到的句子来解释,因此我们获得了几种表达式,这些表达式在隐藏的角度句子中出现。被发现的句子和表情并不能明确传达愤怒,很难推断作家的愤怒,但是如果指出了隐性的愤怒,就有可能猜测作者为什么生气。在实际使用中,该框架很可能有能力根据误解来缓解问题。
translated by 谷歌翻译
我们提出了一种基于事件的降雪算法,称为EBSNOR。我们开发了一种技术,可以使用基于事件的相机数据来测量像素上雪花的停留时间,该数据用于进行Neyman-Pearson假设测试,以将事件流分为雪花和背景事件。在一个名为udayton22ebsnow的新数据集上验证了拟议的EBSNOR的有效性,该数据集由前面事件的摄像机组成,该相机在汽车中驾驶雪中,并在周围车辆周围手动注释的边界盒。在定性上,Ebsnor正确地标识了与雪花相对应的事件;并且在定量上,EBSNOR预处理的事件数据改善了基于事件的CAR检测算法的性能。
translated by 谷歌翻译
最近,盲目的语音分离(BSS)和目标语音提取(TSE)的表现已取得了长足的进步。但是,大多数作品都专注于相对控制的条件,例如阅读语音。在更现实的情况下,性能可能会降低。引起这种降解的因素之一可能是固有的说话者变异性,例如情绪,通常在现实的语音中发生。在本文中,我们研究了情绪对TSE和BSS的影响。我们创建了一个新的测试数据集,以评估TSE和BSS。该数据集结合了Librispeech和Ryerson Audio-Visual Visual Espections and Song(Ravdess)。通过受控的实验,我们可以分析不同情绪对BSS和TSE性能的影响。我们观察到BSS对情绪相对强大,而TSE需要识别和提取目标说话者的语音,对情绪更为敏感。在比较演讲者验证实验中,我们表明,在处理情感语音时,确定目标扬声器可能特别具有挑战性。使用我们的发现,我们概述了可能改善BSS和TSE系统对情感语音的鲁棒性的潜在方向。
translated by 谷歌翻译
我们为基于语义信息(称为ConceptBeam的语义信息)提出了一个新颖的框架。目标语音提取意味着在混合物中提取目标扬声器的语音。典型的方法一直在利用音频信号的性能,例如谐波结构和到达方向。相反,ConceptBeam通过语义线索解决了问题。具体来说,我们使用概念规范(例如图像或语音)提取说话者谈论概念的演讲,即感兴趣的主题。解决这个新颖的问题将为对话中讨论的特定主题等创新应用打开门。与关键字不同,概念是抽象的概念,使直接代表目标概念的挑战。在我们的方案中,通过将概念规范映射到共享的嵌入空间,将概念编码为语义嵌入。可以使用由图像及其口语字幕组成的配对数据进行深度度量学习来构建这种独立的空间。我们使用它来桥接模式依赖性信息,即混合物中的语音段以及指定的,无模式的概念。作为我们方案的证明,我们使用与口语标题相关的一组图像进行了实验。也就是说,我们从这些口语字幕中产生了语音混合物,并将图像或语音信号用作概念指定符。然后,我们使用已识别段的声学特征提取目标语音。我们将ConceptBeam与两种方法进行比较:一种基于从识别系统获得的关键字,另一个基于声音源分离。我们表明,概念束明显优于基线方法,并根据语义表示有效提取语音。
translated by 谷歌翻译
将差异化随机梯度下降(DPSGD)应用于培训现代大规模神经网络(例如基于变压器的模型)是一项艰巨的任务,因为在每个迭代尺度上添加了噪声的幅度,都具有模型维度,从而阻碍了学习能力显著地。我们提出了一个统一的框架,即$ \ textsf {lsg} $,该框架充分利用了神经网络的低级别和稀疏结构,以减少梯度更新的维度,从而减轻DPSGD的负面影响。首先使用一对低级矩阵近似梯度更新。然后,一种新颖的策略用于稀疏梯度,从而导致低维,较少的嘈杂更新,这些更新尚未保留神经网络的性能。关于自然语言处理和计算机视觉任务的经验评估表明,我们的方法的表现优于其他最先进的基线。
translated by 谷歌翻译
我们在差异隐私(DP)的洗牌模型中研究高斯机制。特别是,我们表征了该机制的r \'enyi差异隐私(RDP),表明它是形式:$$ \ epsilon(\ lambda)\ leq \ leq \ frac {1} {\ lambda-rambda-1} \ log \ left( \ frac { } \ binom {\ lambda!} {k_1,\ dotsc,k_n} e^{\ sum_ {\ sum_ {i = 1}^nk_i^2/2 \ sigma^2} \ right)由高斯RDP限制在上面,而不会改组。混乱的高斯RDP在组成多种DP机制方面是有利的,在该机制中,我们证明了其对散装模型的隐私保证的最新近似DP组成定理的改进。此外,我们将研究扩展到了次采样的洗牌机制和最近提出的洗牌机制,这些机制是针对分布式/联合学习的协议。最后,对这些机制进行了一项实证研究,以证明在分布式学习框架下采用洗牌高斯机制来保证严格的用户隐私的功效。
translated by 谷歌翻译